بازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف

thesis

دانشگاه تربیت معلم - تهران - دانشکده مهندسی
author عبدالحسین صراف زاده
adviser رضا حسینی نژاد جمشید شنبه زاده
publication year 1392

abstract

این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در متن نیز باید مشخص باشند. الگوریتم پیشنهادی از مدل پنهان مارکوف استفاده می کند. این مدل یکی از موفق ترین روش های بازشناسی گفتار می باشد که به دلیل وجود شباهت های بسیار، در سال های اخیر در بازشناسی متون نیز مورد توجه زیادی قرار گرفته است. مدل پنهان مارکوف شامل حالات به همراه احتمال گذر بین آن هاست و در هر حالت می توان مشاهدات احتمالی مختلفی نیز داشت. برای بازشناسی متن، مشاهدات می توانند مجموعه ای از مقادیر پیکسل ها و حالات بیانگر بخش های حروف باشند. برای کوچک کردن فضای حالت ویژگی ها و در نتیجه ساده تر کردن محاسبات، در این روش از کوانتیزاسیون برداری نیز استفاده شده است که این کار با کمک خوشه بندی انجام می شود. در این پایان نامه روش های مختلف خوشه بندی نیز ارائه شده و کارایی آن ها در مسئله بازشناسی بررسی گشته و در نهایت الگوریتم خوشه بندی agglomerative مورد استفاده قرار گرفته است. در فرآیند آموزش روش ارائه شده، سیستم تعداد زیادی تصاویر متنی به همراه اطلاعات قطعه بندی آن ها در سطح کاراکتر دریافت می کند. سپس یک پنجره در راستای خط زمینه حرکت کرده و ابتدا برای حالات مختلف هریک از کاراکترها یک مدل پنهان مارکوف ایجاد می شود. در نهایت با بررسی احتمال قرارگیری حروف در کنار یکدیگر، تمامی این مدل ها به یکدیگر متصل شده و یک مدل پنهان مارکوف کلی نیز تشکیل می گردد. آموزش مدل ها در این فرآیند توسط الگوریتم baum-welch می باشد. در بخش تست، سیستم تصویر متن را دریافت کرده و با استفاده از مکانیزم پنجره ذکر شده، دنباله ای از ویژگی ها را نتیجه می دهد. در این جا نیازی به قطعه بندی نیست و تنها تشخیص محل قرارگیری خط کافی می باشد. با وارد کردن این دنباله مشاهدات به مدلی که در مرحله قبل آموزش داده شده، مدل پنهان مارکوف بهینه ترین زنجیره از حالات که بیانگر متن موجود در تصویر است، را با استفاده از الگوریتم viterbi به ما بر می گرداند. برای بررسی عملکرد این سیستم در زبان فارسی، با استفاده از چندین واژه نامه معتبر، مجموعه وسیعی از کلمات ایجاد کرده و با کنار هم قرار دادن تصادفی آن ها متون زیادی را تشکیل داده ایم. سپس تصاویر این متون را با قلم های مورد نظر تولید و ساختار مناسبی برای توصیف آن ها ایجاد نموده ایم. به منظور مقایسه نیز از مجموعه داده عربی pats استفاده شده است. برای مجموعه تصاویر توسعه داده شده نرخ بازشناسی بین 98.32 تا 100 و برای مجموعه داده pats بین 95.37 تا 100 قرار دارد.

similar resources

بازشناسی متون چاپی فارسی

برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...

15 صفحه اول

مدیریت سبد مشتریان پرمشغله با استفاده از مدل پنهان مارکوف

با توجه به توسعه روزافزون مفاهیم نوین در عرصه بازاریابی نیاز به تحقیقات بیشتر در این زمینه بسیار محسوس می‏باشد. یکی از این موارد بحث مرتبط با مشتریان پرمشغله و مدیریت سبد این دسته از مشتریان است که تاکنون تحقیقی در این راستا صورت نگرفته است. در اینجا سعی شده است پس از ارایه یک مرور کلی از تحقیقات مرتبط با موضوع به کمک شیوه قوی مدلسازی پنهان مارکوف رفتار این دسته از مشتریان به طور دقیق ارزیابی و...

full text

رویکرد یکپارچه برای بازشناسی متون چاپی فارسی

چکیده ندارد.

15 صفحه اول

بازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری

Abstract Text recognition has been one of the growing research topics in recent years. Many of these researches have focused on recognition of letters and sub-words as a basis for identifying larger text structures such as words, phrases and sentences. This thesis presents a new method in which the recognized sub-words are combined in order to provide meaningful words and sentences in Farsi tex...

full text

بازشناسی برخط حروف فارسی بر پایه مدل مخفی مارکوف

full text

بازشناسی برخط زیر-کلمات فارسی بر اساس ویژگی‌های کدهای زنجیره‌ای فریمن با استفاده از ‌ مدل مخفی مارکوف

در این مقاله سعی بر شناسایی برخط زیر-کلمات فارسی با استفاده از کدهای زنجیره‌ای فریمن و مدل مخفی مارکوف شده است. کدهای زنجیره‌ای با استفاده از جهت شکستگی‌ها، ضمن حفظ جهت حرکت قلم، حجم داده‌ها را کاهش می‌دهد. از این‌رو می‌تواند به عنوان یک روش مؤثر در شناسایی برخط زیر-کلمات بکار گرفته شود. پس از شکستن زیر-کلمه به بخش‌های تشکیل‌دهنده (بدنه اصلی و ریزحرکات)، با استفاده از کدهای زنجیره‌ای فریمن، هر ...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}

document type: thesis

دانشگاه تربیت معلم - تهران - دانشکده مهندسی

Keywords

بازشناسی گفتار متن چاپی زبان فارسی کوانتش برداری مدل مارکوف پنهان کاراکترشناسی نوری داده پردازی جزء تصویری

Hosted on Doprax cloud platform doprax.com